La dirección mecanicista de los LLMs revela vulnerabilidades de características por capa en entornos adversarios.
<meta name=description content=Análisis mecanicista adversario revela vulnerabilidades por capa en LLMs. Implicaciones para seguridad y robustez de modelos de lenguaje grandes.>